Many practical applications, such as recommender systems and learning to rank, involve solving multiple similar tasks. One example is learning of recommendation policies for users with similar movie preferences, where the users may still rank the individual movies slightly differently. Such tasks can be organized in a hierarchy, where similar tasks are related through a shared structure. In this work, we formulate this problem as a contextual off-policy optimization in a hierarchical graphical model from logged bandit feedback. To solve the problem, we propose a hierarchical off-policy optimization algorithm (HierOPO), which estimates the parameters of the hierarchical model and then acts pessimistically with respect to them. We instantiate HierOPO in linear Gaussian models, for which we also provide an efficient implementation and analysis. We prove per-task bounds on the suboptimality of the learned policies, which show a clear improvement over not using the hierarchical model. We also evaluate the policies empirically. Our theoretical and empirical results show a clear advantage of using the hierarchy over solving each task independently.
translated by 谷歌翻译
我们介绍了一个多臂强盗模型,其中奖励是多个随机变量的总和,每个动作只会改变其中的分布。每次动作之后,代理都会观察所有变量的实现。该模型是由营销活动和推荐系统激励的,在该系统中,变量代表单个客户的结果,例如点击。我们提出了UCB风格的算法,以估计基线上的动作的提升。我们研究了问题的多种变体,包括何时未知基线和受影响的变量,并证明所有这些变量均具有sublrinear后悔界限。我们还提供了较低的界限,以证明我们的建模假设的必要性是合理的。关于合成和现实世界数据集的实验显示了估计不使用这种结构的策略的振奋方法的好处。
translated by 谷歌翻译
非政策学习是使用另一个策略收集的数据优化政策而无需部署政策的框架。在推荐系统中,由于记录数据的不平衡问题尤其具有挑战性:建议某些项目比其他项目更频繁地记录。推荐项目列表时,这将进一步延续,因为动作空间是组合的。为了应对这一挑战,我们研究了对学习排名的悲观非政策优化。关键想法是在点击模型的参数上计算较低的置信度范围,然后以最高的悲观估计值返回列表。这种方法在计算上是有效的,我们对其进行了分析。我们研究其贝叶斯和频繁的变体,并通过合并经验贝叶斯来克服未知先验的局限性。为了展示我们方法的经验有效性,我们将其与使用反向倾向得分或忽略不确定性的非政策优化器进行了比较。我们的方法的表现优于所有基线,也是强大的,并且也是一般的。
translated by 谷歌翻译
高质量数据在确保政策评估的准确性方面起着核心作用。本文启动了针对强盗政策评估的高效和安全数据收集的研究。我们提出问题并研究其几种代表性变体。对于每个变体,我们分析其统计属性,得出相应的勘探策略,并设计用于计算它的有效算法。理论分析和实验都支持所提出方法的有用性。
translated by 谷歌翻译
元,多任务和联合学习可以全部被视为解决类似的任务,从反映任务相似之处的未知分发中汲取类似的任务。在这项工作中,我们提供了所有这些问题的统一视图,因为在分层贝叶斯匪徒中采取行动。我们分析了一种自然的分层汤普森采样算法(HIERTS),可以应用于此类中的任何问题。我们的遗憾界限在此类问题的许多情况下持有,包括当任务顺序或并行解决时;并捕获问题的结构,使得遗憾地随着任务的宽度而减少。我们的证据依赖于新的总方差分解,可以应用于其他图形模型结构。最后,我们的理论是由实验补充的,表明层次结构有助于任务之间的知识共享。这证实了分层贝叶斯匪徒是一种普遍和统计学的工具,用于学习与类似的匪徒任务进行行动。
translated by 谷歌翻译
通过在线实验和违规学习中的实践需求激励,我们研究了安全最佳设计的问题,在那里我们开发了一个有效探索的数据记录策略,同时通过基线生产政策实现竞争奖励。我们首先展示,也许令人惊讶的是,尽管安全,但尽管安全,但尽管是安全的,但仍有统一探索的常见做法是最大化信息增益的次优。然后,我们提出了一个安全的最佳日志记录策略,因为没有有关操作的预期奖励的侧面信息。我们通过考虑侧面信息来改进这种设计,并且还通过线性奖励模型扩展到大量动作的方法。我们分析了我们的数据记录策略如何影响禁止策略学习中的错误。最后,我们通过进行广泛的实验,经验验证了我们设计的好处。
translated by 谷歌翻译
有限的公开数据可以支持恶意软件分析技术的研究。特别是,几乎没有由杜鹃/斗篷等丰富的沙盒生成的公开可用数据集。使用动态沙箱的好处是对目标机中文件执行的逼真模拟并获得该执行日志。机器可以被恶意软件感染,因此很有可能在执行日志中捕获恶意行为,从而使研究人员可以详细研究这种行为。尽管随后对日志信息的分析在工业网络安全后端被广泛介绍,但据我们所知,仅在学术界投入了有限的努力,以使用最先进的技术提高此类日志分析功能。我们使此示例数据集可用来支持设计新的机器学习方法以进行恶意软件检测,尤其是用于自动检测通用恶意行为。该数据集是在Avast软件和捷克技术大学-AI中心(AIC)之间合作的。
translated by 谷歌翻译
从原始数据输入中学习,因此限制了功能工程的需求,是机器学习方法在各个域中的许多成功应用的组成部分。尽管许多问题自然地转化为直接在标准分类器中使用的矢量表示形式,但许多数据源具有结构化数据互换格式的自然形式(例如,以JSON/XML格式使用的安全日志)。现有方法,例如在层次多实例学习(HMIL)中,允许以原始形式从此类数据中学习。但是,对原始结构化数据培训的分类器的解释仍然在很大程度上尚未探索。通过将这些模型视为子集选择问题,我们证明了如何使用计算有效算法来生成具有优惠属性的可解释解释。我们与图形神经网络采用的解释技术进行比较,该技术显示了速度加速和更高质量的解释的顺序。
translated by 谷歌翻译
基于深度学习的渠道代码设计最近引起了人们的兴趣,可以替代传统的编码算法,尤其是对于现有代码不提供有效解决方案的渠道。通过反馈渠道进行的沟通就是一个这样的问题,最近通过采用各种深度学习体系结构来获得有希望的结果。在本文中,我们为反馈渠道介绍了一种新颖的学习辅助代码设计,称为广义块注意反馈(GBAF)代码,i)使用模块化体系结构,可以使用不同的神经网络体系结构实现;ii)与现有设计相比,错误的可能性提高了误顺序;iii)可以以所需的代码速率传输。
translated by 谷歌翻译
经典的机器学习范式需要在中心位置汇总用户数据,在该位置,机器学习实践者可以预处理数据,计算功能,调整模型并评估性能。这种方法的优点包括利用高性能硬件(例如GPU)以及机器学习实践者在深度数据分析中进行的能力以提高模型性能。但是,这些优势可能是为了支付数据隐私的费用。收集,汇总并存储在集中式服务器上以进行模型开发。数据集中构成风险,包括内部和外部安全事件的风险增加以及意外数据滥用。具有不同隐私的联合学习旨在通过将ML学习步骤带给用户的设备来避免服务器端集中化陷阱。学习是以联合方式完成的,每个移动设备都在模型的本地副本上运行一个训练循环。来自设备模型的更新通过加密通信和通过差异隐私发送到服务器,以改善全局模型。在此范式中,用户的个人数据仍在其设备上。令人惊讶的是,以这种方式培训模型培训的模型性能差异很小。但是,由于其分布式性质,异质计算环境和缺乏数据可见性,联邦学习带来了许多其他挑战。本文探讨了这些挑战,并概述了我们正在探索和测试的建筑设计解决方案,以在元评估中生产联合学习。
translated by 谷歌翻译